王梦迪团队

王梦迪团队推出TraceRL：迈向扩散语言模型「RL大一统」

然而，业内目前缺少一个可适用于各种 DLM 架构（如全注意力 DLM 和块注意力 DLM）的统一且有效的强化学习（RL）框架。同时，现有研究也忽视了对齐推理轨迹与训练目标的重要性。